Nvidia đạt được tốc độ mã thông báo kỷ lục với Blackwell GPU, phá vỡ hàng rào 1.000 TPS với Meta Meta Llama 4 Maverick
NVIDIA đã công bố rằng họ đã vượt qua giới hạn hiệu suất AI với kiến trúc Blackwell, nhờ vào một loạt tối ưu hóa và sức mạnh phần cứng. Họ đã tối ưu hóa Blackwell cho các mô hình ngôn ngữ lớn, thúc đẩy cuộc đua về tốc độ sinh token. Team Green đã có những bước tiến đáng kể trong lĩnh vực AI với các giải pháp sử dụng Blackwell.
Trong một bài viết mới, NVIDIA đã công bố đạt được 1,000 TPS với một nút DGX B200 duy nhất sử dụng tám GPU Blackwell. Điều này được thực hiện trên mô hình Llama 4 Maverick với 400 tỷ tham số, một trong những sản phẩm lớn nhất của công ty. Sự kiện này cho thấy hệ sinh thái AI của NVIDIA đã có ảnh hưởng lớn đến lĩnh vực này. Với cấu hình này, NVIDIA có thể đạt tới 72,000 TPS trên một máy chủ Blackwell. Như Jensen đã nói trong bài phát biểu tại Computex, các công ty sẽ khoe khoang tiến bộ AI của họ bằng cách thể hiện khả năng đầu ra token qua phần cứng của mình, và NVIDIA đang hoàn toàn tập trung vào khía cạnh này.
Công ty đã vượt qua rào cản TPs nhờ tối ưu hóa phần mềm mạnh mẽ với TensorRT-LLM và sử dụng mô hình mã hóa suy đoán, đạt được hiệu suất tăng gấp 4 lần. Trong bài viết, Team Green đã phân tích nhiều khía cạnh tối ưu hóa Blackwell cho các LLM quy mô lớn, trong đó phương pháp mã hóa suy đoán đóng vai trò quan trọng. Phương pháp này cho phép một mô hình "nháp" nhỏ hơn, nhanh hơn dự đoán nhiều token trước, trong khi mô hình lớn chính xác nhận chúng song song.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
NVIDIA mô tả rằng giải mã suy đoán là một kỹ thuật phổ biến giúp tăng tốc độ suy diễn của các mô hình ngôn ngữ lớn (LLM) mà không ảnh hưởng đến chất lượng văn bản sinh ra. Kỹ thuật này sử dụng một mô hình "bản nháp" nhỏ hơn, nhanh hơn để dự đoán một chuỗi các token suy đoán, sau đó được xác minh song song bởi mô hình "mục tiêu" lớn hơn. Sự tăng tốc đến từ việc tạo ra nhiều token trong một lần lặp của mô hình mục tiêu, mặc dù có thêm chi phí từ mô hình bản nháp.
NVIDIA đã sử dụng kiến trúc EAGLE3, một kiến trúc phần mềm nhằm tăng tốc độ suy diễn cho các mô hình ngôn ngữ lớn, không phải kiến trúc phần cứng GPU. Họ cho biết, với thành tựu này, họ đã khẳng định vị thế dẫn đầu trong lĩnh vực AI, và Blackwell hiện đã được tối ưu hóa cho các mô hình ngôn ngữ lớn như Llama 4 Maverick. Đây là một bước tiến lớn trong việc giúp tương tác AI trở nên mượt mà và nhanh chóng hơn.
Nguồn: wccftech.com/nvidia-achieves-record-token-speeds-with-blackwell-gpus/